期刊
  出版年
  关键词
结果中检索 Open Search
Please wait a minute...
选择: 显示/隐藏图片
1. Web全文检索中间件的设计与应用
张维刚 徐永东 雷小强 何辉
计算机应用    2011, 31 (08): 2261-2264.   DOI: 10.3724/SP.J.1087.2011.02261
摘要1176)      PDF (609KB)(763)    收藏
为了更好地为Web站内检索提供服务,对Web全文检索的关键技术进行了研究,设计并实现了一个用于Web全文检索的中间件。该中间件通过多线程网页爬虫程序来抓取网页;对抓取结果采用基于Bloom-Filter的大规模URL去重算法来进行高效消重;应用所提出的新的基于标签的正文提取方法来进行网页正文提取,实验结果表明该正文提取方法是有效可行的;此外,为了改善用户的搜索体验,该中间件还提供了一些个性化搜索辅助功能。最后,实现了一个完整的博客搜索系统Boso(博搜)来验证中间件的性能,结果说明该中间件是可以投入实际应用的。
参考文献 | 相关文章 | 多维度评价